Anthropic์ Contextual Retrieval ์์ฝ
AI ๋ชจ๋ธ์ด ํน์ ๋งฅ๋ฝ์์ ์ ์ฉํ๋ ค๋ฉด ๋ฐฐ๊ฒฝ ์ง์์ ๋ํ ์ ๊ทผ์ด ํ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด ๊ฐ๋ฐ์๋ค์ ์ฃผ๋ก RAG(Retrieval-Augmented Generation)๋ฅผ ์ฌ์ฉํ์ฌ ์ง์ ๊ธฐ๋ฐ์์ ๊ด๋ จ ์ ๋ณด๋ฅผ ๊ฒ์ํ๊ณ ์ฌ์ฉ์ ํ๋กฌํํธ์ ์ถ๊ฐํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ ํต์ ์ธ RAG ๋ฐฉ์์ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ ๋ ๋ฌธ๋งฅ์ ์ ๊ฑฐํ์ฌ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ ๋๋ก ๊ฒ์ํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
Contextual Retrieval์ด๋?
Contextual Retrieval์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก, ๋ ๊ฐ์ง ๊ธฐ์ ์ ์ฌ์ฉํฉ๋๋ค:
- Contextual Embeddings: ๊ฐ ํ ์คํธ ์กฐ๊ฐ(chunk)์ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ์ถ๊ฐํ์ฌ ์๋ฒ ๋ฉํฉ๋๋ค.
- Contextual BM25: BM25 ๊ฒ์ ๊ธฐ๋ฒ์ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ๋ฐ์ํฉ๋๋ค.
์ด๋ฅผ ํตํด ๊ฒ์ ์คํจ์จ์ 49%๊น์ง ๊ฐ์์ํฌ ์ ์์ผ๋ฉฐ, ๋ฆฌ๋ญํน(reranking)์ ํจ๊ป ์ฌ์ฉํ๋ฉด ์ต๋ 67%๊น์ง ๊ฐ์์ํฌ ์ ์์ต๋๋ค.
๊ตฌํ ๋ฐฉ๋ฒ
- ํ๋กฌํํธ ๊ฐ์ : Claude์ ๊ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๊ฐ ํ ์คํธ ์กฐ๊ฐ์ ๋ํ ๊ฐ๊ฒฐํ ๋ฌธ๋งฅ ์ค๋ช ์ ์์ฑํฉ๋๋ค.
- ๋ฌธ๋งฅ ์ถ๊ฐ ์๋ฒ ๋ฉ: ์์ฑ๋ ๋ฌธ๋งฅ์ ๊ฐ ํ ์คํธ ์กฐ๊ฐ ์์ ์ถ๊ฐํ ํ ์๋ฒ ๋ฉํฉ๋๋ค.
- Contextual BM25 ์ ์ฉ: ๋ฌธ๋งฅ์ด ์ถ๊ฐ๋ ํ ์คํธ๋ก BM25 ์ธ๋ฑ์ค๋ฅผ ๊ตฌ์ถํฉ๋๋ค.
- ๋ฆฌ๋ญํน ์ฌ์ฉ: ๊ฒ์๋ ์์ ํ ์คํธ ์กฐ๊ฐ๋ค์ ๋ฆฌ๋ญํน ๋ชจ๋ธ๋ก ํ๊ฐํ์ฌ ๊ฐ์ฅ ๊ด๋ จ์ฑ์ด ๋์ ๊ฒ๋ค์ ์ ํํฉ๋๋ค.
์ฑ๋ฅ ํฅ์ ๊ฒฐ๊ณผ
- Contextual Embeddings๋ง์ผ๋ก๋ ๊ฒ์ ์คํจ์จ์ด 35% ๊ฐ์ํ์ต๋๋ค.
- Contextual Embeddings์ Contextual BM25๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ฉด ๊ฒ์ ์คํจ์จ์ด 49% ๊ฐ์ํ์ต๋๋ค.
- ์ฌ๊ธฐ์ ์ฌ๋ญํน์ ์ถ๊ฐํ๋ฉด ์ต๋ 67%๊น์ง ๊ฒ์ ์คํจ์จ์ด ๊ฐ์ํ์ต๋๋ค.
๊ณ ๋ ค์ฌํญ
- ์ฒญํฌ ๋ถํ : ํ ์คํธ๋ฅผ ์ด๋ป๊ฒ ๋ถํ ํ๋๋์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง ์ ์์ต๋๋ค.
- ์๋ฒ ๋ฉ ๋ชจ๋ธ ์ ํ: ์ผ๋ถ ๋ชจ๋ธ์ Contextual Retrieval์ ์ด์ ์ด ๋ ํฌ๊ฒ ๋ํ๋ฉ๋๋ค.
- ๋ง์ถคํ ๋ฌธ๋งฅ ํ๋กฌํํธ: ๋๋ฉ์ธ์ ํนํ๋ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
- ์ฒญํฌ ์ ๊ฒฐ์ : ๋ชจ๋ธ์ ์ ๋ ฅํ๋ ํ ์คํธ ์กฐ๊ฐ์ ์๋ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
๊ฒฐ๋ก
Contextual Retrieval์ ์ ํต์ ์ธ RAG์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ฌ ๋๊ท๋ชจ ์ง์ ๊ธฐ๋ฐ์์๋ ๋์ ์ ํ๋์ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ๊ฒ์ํ ์ ์๊ฒ ํด์ค๋๋ค. ์ด๋ AI ๋ชจ๋ธ์ ์๋ต ์ฑ๋ฅ์ ์ง์ ์ ์ผ๋ก ํฅ์์ํต๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๊ธ